Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes
نویسنده
چکیده
Words are one of the grounds of European languages. Corpora written with these languages are normallydescribe by words. However, extracted information given by words is semantically poor. Actually, totake into account the complexity of European languages are really important. As a result, we propose inthis thesis to feature the characteristic of European languages by using syntactic informations in orderto discover new semantic knowledge from corpora.First, we present SELDE, a model of feature selection. This one is based on objects extracted fromsyntactic relations of a corpus. We experiment SELDE on textual classification tasks by proposing Ex-pLSA, an approach used to make a corpus expansion by using the SELDE features. The goal of ExpLSAis to combine the SELDE features with the statistic method LSA.The SELDE model gives relevant features but cannot be apply with all kinds of textual data. Thus, wepropose different approaches adapted to specific textual data, called complex textual data. We experimentour approaches with noised data, bad written data, and data without syntactic informations.Finally, we propose the SELDEF model. It introduce the automatic validation of syntactic relationscalled induced. Two validation approaches are proposed : a Semantic-Vector-based approach and a WebValidation system. The Semantic Vectors approach is a Roget-based method which computes a syntacticrelation as a vector. Web Validation uses a search engine to determine the relevance of a syntacticrelation. Then, we propose approaches to combine both in order to rank induced syntactic relations.We experiment SELDEF in a conceptual classes building task. Obtained results confirm the quality ofvalidation approaches and quality of built classes. Discipline : Informatique Laboratoire : Laboratoire d’Informatique, de Robotique et de Micro-électronique de Montpellier(LIRMM) ; UMR 5506 ; 161 rue Ada, 34392 Montpellier Cedex 5, France Mots clés : TAL, fouille de textes, descripteur, syntaxe, classification.
منابع مشابه
Fouille de textes pour orienter la construction d'une ressource terminologique
Résumé. La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d’application de cette expérimentation est celui de l’accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d’une ressou...
متن کاملExtraction automatique de connaissances pour la décision multicritère. (Automatic Knowledge Extraction pour Multicriteria Decision Making)
Cette application, sans prendre parti, aborde le sujet délicat qu’est l’automatisation cognitive. Elle propose la mise en place d’une chaîne informatique complète pour supporter chacune des étapes de la décision, en particulier la phase d’apprentissage en faisant de la connaissance actionnable (CA) une entité informatique manipulable par des algorithmes. La connaissance est extraite directement...
متن کاملVeille technologique assistée par la fouille de textes
Résumé. Le domaine de la veille technologique vise à récolter, traiter, et analyser des informations scientifiques et techniques utiles aux acteurs économiques. Dans cet article, nous proposons d’utiliser des techniques de fouille de textes pour automatiser le processus de traitement des données issues de bases de textes scientifiques. Toutefois, la veille introduit une difficulté inhabituelle ...
متن کاملAnnotation de textes par extraction d'informations lexico-syntaxiques et acquisition de schémas conceptuels de causalité
Résumé. Nous présentons la méthode INSYSE (Interface Syntaxe SEmantique) pour l’annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l’extraction d’informations lexico-syntaxique...
متن کاملConstruction d'ontologies à partir de textes : la phase de conceptualisation
Résumé : Dans cet article nous nous interrogeons sur la manière d’outiller la phase de conceptualisation lors de la construction d’une ontologie à partir de textes. La mise en perspective des résultats obtenus à partir de techniques issues de la terminologie et de la fouille de textes est réalisée selon trois plans (discours, linguistique et conceptuel). Cette étude permet de mieux appréhender ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009